home *** CD-ROM | disk | FTP | other *** search
/ Just Call Me Internet / Just Call Me Internet.iso / docs / protocol / rfc / rfc_txt / rfc0000 / rfc0373.txt < prev    next >
Text File  |  1997-08-06  |  8KB  |  219 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. NWG/RFC #373                                       14 July 1972
  8. NIC 11058                                          SU-AI
  9.  
  10.  
  11.                         ARBITRARY CHARACTER SETS
  12.  
  13.                             by John McCarthy
  14.  
  15. It would be nice to be able to have documents stored in computers that
  16. could include arbitrary characters and to be able to display them on
  17. any CRT screen, edit them using any keyboard, and print them on any
  18. printer.  The object of this memorandum is to suggest how to get there
  19. from here with special reference to the ARPA network.
  20.  
  21. Where are we now?
  22.  
  23.    (1) At present, there is 96 character ASCII, and everyone agrees that
  24.    it should be included in any larger set.
  25.  
  26.    (2) Many installations are dependent on 64 character sets which do not
  27.    even include the lower case latin alphabet.
  28.  
  29.    (3) At the Stanford Artificial Intelligence Laboratory, we have a 114
  30.    character set that includes 96 character ASCII and which is
  31.    implemented in our keyboards, displays, and line printer
  32.  
  33.    (4) Printers are becoming available that get their character designs
  34.    out of memory, for example, the Xerox XGP printer, one of which we are
  35.    getting.
  36.  
  37.    (5) The IMLAC type display has the character designs in main memory so
  38.    that changing the displayed set is just a matter of reloading the
  39.    memory.
  40.  
  41.    (6) Many display systems share the character generator among many
  42.    display units.  In some of these, e.g. the Datadisc, arbitrary sets
  43.    are probably feasible (using kludgery to be described later), but in
  44.    other systems, e.g. our III's arbitrary sets are not feasible.
  45.  
  46. One possible approach to communication in expanded character sets is
  47. to produce an expanded standard set of characters, perhaps using 8 or
  48. 9 bits and expect new equipment to implement this set.  This approach
  49. has the disadvantage that it will be very hard to get agreement on
  50. what the next step should be, and even if formal agreement is
  51. realized, many groups will find it in their interest to ignore the
  52. standard.
  53.  
  54.  
  55.  
  56.  
  57.  
  58.                                                                 [Page 1]
  59.  
  60. NWG/RFC# 373                        JMC 14-JUL-72 12:41  11058
  61. ARBITRARY CHARACTER SETS  by John McCarthy
  62.  
  63. Therefore, I would like to suggest that the next step be to arbitrary
  64. character sets.  I suggest implementing this in the following way:
  65.  
  66.    (1) There be established a registry of characters.  Anyone can
  67.    register a new character.  Each character has a unique number, 17 bits
  68.    should be enough even to include Chinese.  Besides this, each
  69.    character has a name in ASCII usually mnemonic.  Finally, the
  70.    character has a design which is a picture on a 50 by 50 dot matrix.
  71.  
  72.    (2) Besides the registry of characters, there is a registry of
  73.    characters sets, which different groups are using for different
  74.    classes of documents.  A registered character set has a registry
  75.    number and a table giving the correspondence between the character
  76.    codes as bit sequences and the registered character numbers.
  77.  
  78.    (3) Associated with a document is a statement of the character code
  79.    used therein.  This may be one of the registered codes or it may
  80.    contain in addition modifications described by an auxiliary table
  81.    giving the code correspondence with registered character numbers.  A
  82.    character code may have an escape character that says that the next
  83.    character is described by its registry number.  The statement of the
  84.    character code may be a header on the document or the receiver may
  85.    have to learn it by some other means, e.g.  because its library
  86.    catalog entry contains this information.
  87.  
  88.    (4) Devices such as printers and displays draw characters in different
  89.    ways and standardization doesn't seem feasible at present. Therefore,
  90.    it is necessary to provide a way of going from the standard
  91.    description of a character using a 50 by 50 dot matrix to whatever
  92.    method the device uses.  This is up to the programmers who are
  93.    supporting the device.  Some may choose to manually create files
  94.    describing how registered characters are implemented.  They may find
  95.    it too much work to provide for all the characters and to update their
  96.    files when new characters are registered.  Others will provide
  97.    programs for going from the registered descriptions to descriptions
  98.    compatible with their implementations.  Perhaps most will hand tailor
  99.    the characters most used and provide a program for the others.
  100.  
  101.  
  102.  
  103.  
  104.  
  105.  
  106.  
  107.  
  108.  
  109.  
  110.  
  111.                                                                 [Page 2]
  112.  
  113. NWG/RFC# 373                        JMC 14-JUL-72 12:41  11058
  114. ARBITRARY CHARACTER SETS  by John McCarthy
  115.  
  116.    (5) The easiest device to handle is the line printer because it is
  117.    slow.  At the beginning of the print job, the SPOOL program will look
  118.    up the character set and load the printer's memory with the character
  119.    designs used in the particular document.  Sometimes, it may have to go
  120.    through the network to one of the computers that stores the registry
  121.    in order to find out what to do.
  122.  
  123.    (6) Display systems that have a character memory for each display unit
  124.    can be handled in about the same way.  Users will occasionally
  125.    experience delays when the display programs are surprised by
  126.    unfamiliar characters.
  127.  
  128.    (7) Display systems that share character memories require more
  129.    complicated treatment.  The object is to keep the memory large enough
  130.    to keep all the characters that the current set of users is using and
  131.    to handle the required table lookups from the different character
  132.    codes in a nice way.  There will be limitations on the diversity of
  133.    character sets that can be in use simultaneously. Systems like the
  134.    Datadisc that only look up the character when it is first written can
  135.    be extended to work with large sets.  Systems that have to look up
  136.    each character code 30 times per second in order to maintain the
  137.    display won't work so well.
  138.  
  139. I have no special ideas about how to make keyboards adaptable to
  140. arbitrary sets.  Each user may have to fend for himself.
  141.  
  142. In this memorandum so far, I have ignored typography, i.e. the fact
  143. that in printed documents the same letter may be printed in many
  144. fonts.  Perhaps, each character in each font will require a separate
  145. registered description, but with a constant difference between the
  146. numbers of the same character in different fonts.  Installations will
  147. again have to decide what font distinctions they will implement.
  148.  
  149. Some other issues that might be considered are whether means can be
  150. provided to adapt texts automatically to the line and page lengths of
  151. the different devices.
  152.  
  153. It seems to me most likely that the typographical problems cannot be
  154. solved at this time, and it would be best to adopt conventions for
  155. registering character designs at this time, and leave typography for
  156. later.
  157.  
  158.  
  159.  
  160.  
  161.  
  162.  
  163.  
  164.                                                                 [Page 3]
  165.  
  166. NWG/RFC# 373                        JMC 14-JUL-72 12:41  11058
  167. ARBITRARY CHARACTER SETS  by John McCarthy
  168.  
  169. In my opinion, there is no real obstacle to establishing the registry
  170. in the ARPA network now, getting the standards organization to work,
  171. and being able to exchange documents in extended character sets as
  172. soon as the various installations can acquire the printers and display
  173. devices.
  174.  
  175. It is the present policy of the Stanford Artificial Intelligence
  176. Laboratory to acquire no more devices that are wedded to fixed
  177. character sets.
  178.  
  179.  
  180.  
  181.  
  182.  
  183.        [ This RFC was put into machine readable form for entry ]
  184.        [ into the online RFC archives by BBN Corp. under the   ]
  185.        [ direction of Alex McKenzie.                      1/97 ]
  186.  
  187.  
  188.  
  189.  
  190.  
  191.  
  192.  
  193.  
  194.  
  195.  
  196.  
  197.  
  198.  
  199.  
  200.  
  201.  
  202.  
  203.  
  204.  
  205.  
  206.  
  207.  
  208.  
  209.  
  210.  
  211.  
  212.  
  213.  
  214.  
  215.  
  216.  
  217.                                                                 [Page 4]
  218.  
  219.